Битва ИИ: обновления Google Project Astra, Veo и Gemini

Updated:2024-11-28 11:07:51

Это ответ Google на OpenAI.

Общая ИИ, ИИ, который действительно может использоваться ежедневно, было бы стыдно проводить пресс-конференцию, если это не так сейчас.

Рано утром 15 мая официально началась ежегодная "Весенняя Гала Технологического Мира" — конференция разработчиков Google I/O. Сколько раз искусственный интеллект упоминался в 110-минутном основном докладе? Google подсчитал:

Да, о ИИ говорят каждую минуту.

Конкуренция генеративного ИИ недавно достигла нового пика, и содержание этой конференции I/O, естественно, вращается вокруг искусственного интеллекта.

"Год назад на этой сцене мы впервые поделились нашими планами о нативной многомодальной крупной модели, Gemini. Это ознаменовало новое поколение I/O," - сказал генеральный директор Google Сундар Пичаи. "Сегодня мы надеемся, что все смогут извлечь выгоду из технологий Gemini. Эти новаторские функции проникнут в поиск, изображения, инструменты производительности, системы Android и многие другие аспекты."

В настоящее время как 1.5 Pro, так и 1.5 Flash доступны для публичного предварительного просмотра и предлагают контекстное окно в 1 миллион токенов в Google AI Studio и Vertex AI. Теперь 1.5 Pro также предоставляет контекстное окно в 2 миллиона токенов для разработчиков, использующих API и клиентов Google Cloud через список ожидания.

Кроме того, Gemini Nano был расширен с чисто текстового ввода до ввода изображений. Позже в этом году, начиная с Pixel, Google запустит многомодальный Gemini Nano. Это означает, что мобильные пользователи смогут не только обрабатывать текстовый ввод, но и понимать больше контекстной информации, такой как визуальные образы, звук и разговорная речь.

Семейство Gemini приветствует нового члена: Gemini 1.5 Flash

Новый 1.5 Flash был оптимизирован для скорости и эффективности.

Новое поколение открытой модели Gemma 2

Сегодня Google также выпустил серию обновлений для открытой крупной модели Gemma – Gemma 2 здесь.

Как было представлено, Gemma 2 использует новую архитектуру, направленную на достижение революционной производительности и эффективности; новые параметры открытого исходного кода составляют 27B.

Когда речь идет о длинных видео, Veo может производить видео длиной 60 секунд и даже длиннее. Это возможно благодаря одному запросу или предоставлению серии запросов, которые вместе рассказывают историю. Это ключевой момент для применения моделей генерации видео в производстве кино и телевидения.

Veo основан на работе Google в области генерации визуального контента, включая Generative Query Network (GQN), DVD-GAN, Image-to-Video, Phenaki, WALT, VideoPoet, Lumiere и другие.